MUTAN: Multimodal Tucker Fusion for Visual Question Answering

机译：mUTaN：用于视觉问答的多模式Tucker融合

代理获取

本网站仅为用户提供外文OA文献查询和代理获取服务，本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文，但由于OA文献来源多样且变更频繁，仍可能出现获取不到、文献不完整或与标题不符等情况，如果获取不到我们将提供退款服务。请知悉。

获取外文期刊封面目录资料

页面导航

摘要
著录项
引文网络
相似文献
相关主题

摘要

Bilinear models provide an appealing framework for mixing and merginginformation in Visual Question Answering (VQA) tasks. They help to learn highlevel associations between question meaning and visual concepts in the image,but they suffer from huge dimensionality issues. We introduce MUTAN, amultimodal tensor-based Tucker decomposition to efficiently parametrizebilinear interactions between visual and textual representations. Additionallyto the Tucker framework, we design a low-rank matrix-based decomposition toexplicitly constrain the interaction rank. With MUTAN, we control thecomplexity of the merging scheme while keeping nice interpretable fusionrelations. We show how our MUTAN model generalizes some of the latest VQAarchitectures, providing state-of-the-art results.

机译：双线性模型为视觉问答（VQA）任务中的混合和合并信息提供了一个有吸引力的框架。它们帮助学习问题含义和图像中视觉概念之间的高级关联，但是它们遭受着巨大的尺寸问题。我们引入MUTAN，一种基于多模量张量的Tucker分解，以有效地实现视觉和文本表示之间的参数化双线性交互。除Tucker框架外，我们还设计了一种基于矩阵的低秩分解，以明确限制交互等级。使用MUTAN，我们可以控制合并方案的复杂性，同时保持良好的可解释性融合关系。我们将展示MUTAN模型如何概括一些最新的VQA架构，并提供最新的结果。

著录项

作者
Ben-younes, Hedi; Cadene, Rémi; Cord, Matthieu; Thome, Nicolas;
展开▼
作者单位

展开▼
年度 2017
总页数
原文格式 PDF
正文语种
中图分类

相似文献

外文文献
中文文献
专利

1. Multimodal feature fusion by relational reasoning and attention for visual question answering [J] . Zhang Weifeng, Yu Jing, Hu Hua, Information Fusion . 2020,第期

机译：通过关系推理和关注的多模式特征融合
2. Multimodal deep fusion for image question answering [J] . Zhang Weifeng, Yu Jing, Wang Yuxia, Knowledge-Based Systems . 2021,第Jana5期

机译：图像问题的多模式深融合
3. Information fusion in visual question answering: A Survey [J] . Zhang Dongxiang, Cao Rui, Wu Sai Information Fusion . 2019,第期

机译：视觉问题的信息融合应答：调查
4. MUTAN: Multimodal Tucker Fusion for Visual Question Answering [C] . Hedi Ben-younes, Remi Cadene, Matthieu Cord, IEEE International Conference on Computer Vision . 2017

机译：Mutan：多模式Tucker融合用于视觉问题的回答
5. An Analysis of Bottom-Up Attention Models and Multimodal Representation Learning for Visual Question Answering [D] . Narayanan, Venkatraman . 2019

机译：视觉问题应答的自下而上关注模型和多式联表学习分析
6. A Depth Evidence Score Fusion Algorithm for Chinese Medical Intelligence Question Answering System [O] . Xiabing Zhou, Binglin Wu, Qinglei Zhou 2018

机译：中国医学智能问答系统的深度证据分数融合算法
7. Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding [O] . Fukui, Akira, Park, Dong Huk, Yang, Daylen, 2016

机译：用于视觉问答的多模式紧凑双线性池视觉接地

MUTAN: Multimodal Tucker Fusion for Visual Question Answering

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅